“中国年轻人正带领国家走向危机”,这锅背是不背?

前些天在微博看到新浪财经的《中国年轻人正带领国家走向危机?》 一文,立马就被标题震惊到了,文章内容大家可自行阅读,在此不做评价。

但正所谓:“人在家中坐,锅从天上来”,面对如此耸人听闻的言论,我更好奇的是评论区里大家的反应是怎样的,舆论会是如何。于是拿出键盘,简单爬虫测试了下,发现能很便捷的爬取到评论数据后,就决定开启这个项目,并看看能分析和挖掘出什么信息,而且刚之前完成了当你点开这首《八月》的歌:9400余条评论的分析与挖掘》这个小项目,数据和代码开源在GitHub:DesertsX/gulius-projects (jupyter notebook 里涉及的内容也很多,之后会进行调整并拆分开来),正好也是评论数据的挖掘,所以部分代码和经验可以迁移过来,perfect。

此外,介绍并安利下 gulius-procjects 这个项目,创建的初衷是开源自己完成过的小项目,主要是爬虫、数据分析与挖掘、可视化等用 Python 的全套实现,尽量用 excel 等手动辅助,借此磨练下代码能力,或者准确地说是提升下 pandas 的熟练程度(目前两个项目下来,进步神速);另外将一些“野生”的数据分析、挖掘、可视化的套路与模板整合起来,作为“武器库”方便日后迁移与应用。

虽然在知乎专栏《Data Analysis & Viz》也更新过不少相关文章,但完全用 Python 实现的几乎没有,虽说不必转牛角尖的追求代码实现,聊斋云“黄狸黑狸,得鼠者雄”,各种工具能用来达到目的就是好的,但熟练掌握以 pandas 为核心的数据科学的技术,也能为日常随心所欲(没有为所欲为)的完成些项目,或后续数据挖掘、机器学习里数据清洗、数据预处理、特征工程等提供技术保障,因此何乐而不为呢。配图来源:Pandas Python For Data Science

以上扯了这么多,其实也是因为本文先不展开本次针对新浪财经文章评论挖掘的细节,只是作为个引子以及全局性的带大家过一遍已经完成的内容,并且之后会开启“手把手教你完成一个数据科学小项目”的系列文章(真的是膨胀了,“数据科学”四个字都敢用起来了),并以本项目为例,从爬虫、数据提取与准备、数据异常发现与清洗、分析与可视化等等,全部涉及,感兴趣的朋友学完还是应该能学到些东西的。

接下来就是走一遍将涉及的、已经完成的内容。首先是爬虫入口,也就是评论区加载评论的地方,本次爬虫真的很简单,虽然url里有看两个似随机的参 jsvar=loader_1533711754393_51961031,但稍有经验的应该能立马破解,会抓包的朋友可以去试着爬下数据,不会的也不要急,下一篇文章就会涉及:

根据一定的数据存储和信息提取步骤完成前面数据准备的过程,另外本次也发现爬虫拿到的数据里有每个人评论时设备的 ip 地址与城市信息,于是又写了个爬虫,调用ip查询的网站进行查询,并将结果一并存入数据中:


不过因为当时正好“科学上网”,所以看到自己的ip和地理位置也并不是真实的情况,也注意到了爬取到的数据里有很多海外定位,无法确定是真实的,还是“科学上网”的烟雾弹:


数据准备的差不多后,开始看看文章评论数的变化情况,用 pyecharts 绘制了每小时评论数的柱状图和评论数逐小时累积的曲线图的组合图,并发现了数据中异常情况的存在,于是“一朝回到解放前”,需要从头排雷:


不过代码都在,重新运行一遍,爬一遍数据,并根据排查结果,删除重复数据,按照时间顺行排序后,卷土重来,组合图就正常多了,美滋滋:


接下来把地理位置,首先就要根据原始的、杂乱的位置信息分别提取出相应的省份与城市,这一过程也是值得好好讲讲的,大概采取了“分而治之”的思想(知识点、考点,逃...):


总而言之,是拿到了满意的数据格式,轻松绘制评论区人员的省份分布统计图:


当然更好的方式是画到中国地图上啦!


同样的,城市分布情况,也如法炮制下:


地图的效果更加的璀璨美观:


当然,虽说尽量不用外部工具,但最后还是用了下 BDP 来结合时间数据和地理数据,实现超级酷炫的效果:


文章评论的动态热力图,直观酷炫,但其实实现方式很简单,且看后续文章的介绍哈,卖个关子:


最后是不能免俗的词云图,看看大家频繁提到的词语都有哪些:


以及 Top20 emoji 的使用情况,不过网页上看不到每个表情的具体样子,还需再看看有什么途径可以像开头网易云音乐歌曲评论里的 emoji 一样对应上:


以上先粗浅的过了下本项目的大概内容,可能还会补充。接下来“手把手教你完成一个数据科学小项目”的系列文章,将全面涉及本项目各从爬虫、数据提取与准备、数据异常发现与清洗、分析与可视化等等的细节,并将代码统一开源在GitHub:DesertsX/gulius-projects ,感兴趣的朋友可以先行 star 哈。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,458评论 4 363
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,454评论 1 294
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,171评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,062评论 0 207
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,440评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,661评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,906评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,609评论 0 200
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,379评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,600评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,085评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,409评论 2 254
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,072评论 3 237
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,088评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,860评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,704评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,608评论 2 270

推荐阅读更多精彩内容